CAS-ViT: 高效移动应用的卷积加性自注意Vision Transformer

VisionTransformer(ViTs)是一种在神经网络领域取得了革命性进展的模型,它通过标记混合器(tokenmixer)强大的全局上下文能力,实现了对图像分类、目标检测、实例分割和语义分割等多个视觉...